Convolutional neural networks (CNNs) have recently been very successful in a variety of computer vision tasks, especially on those linked to recognition. Optical flow estimation has not been among the tasks where CNNs were successful. In this paper we construct appropriate CNNs which are capable of solving the optical flow estimation problem as a supervised learning task. We propose and compare two architectures: a generic architecture and another one including a layer that correlates feature vectors at different image locations.Since existing ground truth datasets are not sufficiently large to train a CNN, we generate a synthetic Flying Chairs dataset. We show that networks trained on this unrealistic data still generalize very well to existing datasets such as Sintel and KITTI, achieving competitive accuracy at frame rates of 5 to 10 fps.
translated by 谷歌翻译
Machine learning models have been found to learn shortcuts -- unintended decision rules that are unable to generalize -- undermining models' reliability. Previous works address this problem under the tenuous assumption that only a single shortcut exists in the training data. Real-world images are rife with multiple visual cues from background to texture. Key to advancing the reliability of vision systems is understanding whether existing methods can overcome multiple shortcuts or struggle in a Whac-A-Mole game, i.e., where mitigating one shortcut amplifies reliance on others. To address this shortcoming, we propose two benchmarks: 1) UrbanCars, a dataset with precisely controlled spurious cues, and 2) ImageNet-W, an evaluation set based on ImageNet for watermark, a shortcut we discovered affects nearly every modern vision model. Along with texture and background, ImageNet-W allows us to study multiple shortcuts emerging from training on natural images. We find computer vision models, including large foundation models -- regardless of training set, architecture, and supervision -- struggle when multiple shortcuts are present. Even methods explicitly designed to combat shortcuts struggle in a Whac-A-Mole dilemma. To tackle this challenge, we propose Last Layer Ensemble, a simple-yet-effective method to mitigate multiple shortcuts without Whac-A-Mole behavior. Our results surface multi-shortcut mitigation as an overlooked challenge critical to advancing the reliability of vision systems. The datasets and code are released: https://github.com/facebookresearch/Whac-A-Mole.git.
translated by 谷歌翻译
Developing robust and fair AI systems require datasets with comprehensive set of labels that can help ensure the validity and legitimacy of relevant measurements. Recent efforts, therefore, focus on collecting person-related datasets that have carefully selected labels, including sensitive characteristics, and consent forms in place to use those attributes for model testing and development. Responsible data collection involves several stages, including but not limited to determining use-case scenarios, selecting categories (annotations) such that the data are fit for the purpose of measuring algorithmic bias for subgroups and most importantly ensure that the selected categories/subcategories are robust to regional diversities and inclusive of as many subgroups as possible. Meta, in a continuation of our efforts to measure AI algorithmic bias and robustness (https://ai.facebook.com/blog/shedding-light-on-fairness-in-ai-with-a-new-data-set), is working on collecting a large consent-driven dataset with a comprehensive list of categories. This paper describes our proposed design of such categories and subcategories for Casual Conversations v2.
translated by 谷歌翻译
尽管机器学习方法在其培训领域表现良好,但通常在现实世界中往往会失败。在心血管磁共振成像(CMR)中,呼吸运动代表了采集质量以及随后的分析和最终诊断的主要挑战。我们提出了一个工作流程,该工作流程预测CMRXMOTION挑战2022的CMR中呼吸运动的严重程度得分。这是技术人员在获取过程中立即提供有关CMR质量的反馈的重要工具,因为可以直接重新获得质量较差的图像,同时还可以重新获得质量。该患者在附近仍有可用。因此,我们的方法可确保获得的CMR在用于进一步诊断之前达到特定的质量标准。因此,在严重运动人工制品的情况下,它可以有效地进行适当诊断的有效基础。结合我们的细分模型,这可以通过提供完整的管道来保证适当的质量评估和对心血管扫描的真实细分来帮助心脏病专家和技术人员的日常工作。代码库可在https://github.com/meclabtuda/qa_med_data/tree/dev_qa_cmrxmotion获得。
translated by 谷歌翻译
在本文中,我们将深度学习文献与非线性因素模型联系起来,并表明深度学习估计可以大大改善非线性加性因子模型文献。我们通过扩展Schmidt-Hieber(2020)定理来提供预期风险的界限,并表明这些上限在一组多个响应变量上是均匀的。我们表明,我们的风险界限并不取决于因素的数量。为了构建资产回报的协方差矩阵估计器,我们开发了深层神经网络中误差协方差矩阵的新型数据依赖性估计器。估算器是指灵活的自适应阈值技术,对创新中的异常值很强。我们证明估计量在光谱规范中是一致的。然后使用该结果,我们显示了协方差矩阵的一致性和收敛速率和资产回报的精确矩阵估计器。两种结果中的收敛速度并不取决于因素的数量,因此我们的收敛性是因子模型文献中的一个新结果,因为这一事实是因素的数量妨碍了更好的估计和预测。除了精确矩阵结果外,即使资产数量大于时间跨度,我们也可以获得我们所有的结果,并且两个数量都在增长。各种蒙特卡洛模拟证实了我们的大型样本发现,并揭示了DNN-FM的卓越精确度,以估计连接因子和可观察变量的真实潜在功能形式,以及与竞争方法相比的协方差和精确矩阵。此外,在大多数情况下,就样本外投资组合策略而言,在样本外预测应用程序中,就样本外投资组合标准偏差和Sharpe比率而言,它的表现优于其他投资组合策略。
translated by 谷歌翻译
为了在医学成像研究中保持标准,图像应具有必要的图像质量,以进行潜在的诊断使用。尽管基于CNN的方法用于评估图像质量,但仍可以从准确性方面提高其性能。在这项工作中,我们通过使用SWIN Transformer来解决此问题,这改善了导致医疗图像质量降解的质量质量差分类性能。我们在胸部X射线(Object-CXR)和心脏MRI上的左心室流出路分类问题(LVOT)上测试了胸部X射线(Object-CXR)和左心室流出路分类问题的方法。虽然我们在Object-CXR和LVOT数据集中获得了87.1%和95.48%的分类精度,但我们的实验结果表明,SWIN Transformer的使用可以改善对象CXR分类性能,同时获得LVOT数据集的可比性能。据我们所知,我们的研究是医学图像质量评估的第一个Vision Transformer应用程序。
translated by 谷歌翻译
我们的工作重点是解决公共图像数据集中数据歧管低密度区域的样本缺陷。我们利用基于扩散过程的生成模型来合成来自低密度区域的新图像。我们观察到来自扩散模型的均匀采样主要是来自数据歧管高密度区域的样品。因此,我们修改采样过程以将其引导到低密度区域,同时保持合成数据的保真度。我们严格地证明我们的过程成功地生成了来自低密度区域的新型高保真样品。我们进一步检查了生成的样品,并表明该模型不会记住低密度数据,并且确实学会了从低密度区域生成新样本。
translated by 谷歌翻译
在事件数据中自动检测异常可以在域中提供大量值,例如医疗保健,DEVOPS和信息安全。在本文中,我们框架检测异常连续时间事件序列作为时间点过程(TPPS)的分布异常(OOD)检测的问题。首先,我们展示了如何使用拟合良好(GOF)测试来接近该问题。然后,我们展示了TPP的流行GOF统计数据的局限性,并提出了解决这些缺点的新测试。该方法可以与各种TPP模型(例如神经TPP)组合,易于实现。在我们的实验中,我们展示了拟议的统计值在传统的GOF测试中,以及检测模拟和现实数据中的异常。
translated by 谷歌翻译
本文介绍了一个新颖的数据集,以帮助研究人员评估他们的计算机视觉和音频模型,以便在各种年龄,性别,表观肤色和环境照明条件下进行准确性。我们的数据集由3,011名受试者组成,并包含超过45,000个视频,平均每人15个视频。这些视频被录制在多个美国国家,各种成年人在各种年龄,性别和明显的肤色群体中。一个关键特征是每个主题同意参与他们使用的相似之处。此外,我们的年龄和性别诠释由受试者自己提供。一组训练有素的注释器使用FitzPatrick皮肤型刻度标记了受试者的表观肤色。此外,还提供了在低环境照明中记录的视频的注释。作为衡量某些属性的预测稳健性的申请,我们对DeepFake检测挑战(DFDC)的前五名获胜者提供了全面的研究。实验评估表明,获胜模型对某些特定人群的表现较小,例如肤色较深的肤色,因此可能对所有人都不概括。此外,我们还评估了最先进的明显年龄和性别分类方法。我们的实验在各种背景的人们的公平待遇方面对这些模型进行了彻底的分析。
translated by 谷歌翻译
从调制选择到多安滕纳策略,由于物理层的连续决策而实现了通信,并且每个决策都会影响通信系统的性能。未来的通信系统必须包括广泛的功能,因为它们将涵盖各种设备和应用。常规的物理层决策机制可能无法满足这些要求,因为它们通常是基于不切实际和过度简化的假设,这些假设导致复杂性和效率之间的权衡。通过利用过去的经验,学习驱动的设计是有希望的解决方案,即使在特殊情况下也能够快速响应。相应的设计解决方案应按照学习驱动的范例的线发展,这些范式提供了更多的自主性和鲁棒性。必须通过考虑现实世界系统的事实而不限制假设来实现这种进化。在本文中,提出了物理层中的共同假设,以突出它们在实用系统中的差异。作为解决方案,通过考虑实施步骤和挑战来检查学习算法。此外,通过使用软件定义的无线电节点进行实时案例研究来讨论这些问题,以证明潜在的性能改善。提出了一个网络物理框架,以纳入未来的补救措施。
translated by 谷歌翻译